探索性数据分析¶

对单独一列信息的探索¶

print('Discount_rate 类型:',dfoff['Discount_rate'].unique()) #dfoff是打开的某pandas文件

使用value_counts()方法就可以。这个方法可以用于计数。这是Pandas内置的方法，用Pandas读取完文件之后就可以直接调用这个方法。

dfoff['label'].value_counts()

我们在探索性数据分析的时候常常需要比较某两个特征之间的关系。这时候往往需要用到Pandas的groupby方法。

比如说对于这样的数据，我们想按照Data_received的时间日期对其进行统计，同一时间日期下有多少个Date：

image

couponbydate = dfoff[dfoff['Date_received'] != 'null'][['Date_received', 'Date']].groupby(['Date_received'], as_index=False).count()

统计结果会像这样：

Date_received	Date
20160101	554
20160102	542
20160103	536
20160104	577
20160105	691
20160106	808

这里说一下as_index这个参数，如果改成True的话，被groupby的那一列会单独成为一列。如果是False的话，则不会单独成为一列。

一般情况下，数据的第一行表示的是特征。如果想用列表的形式显示特征可以使用Pandas的tolist()进行转换：

dfoff.columns.tolist() #dfoff是用Pandas读取的csv数据